import time
import warnings
import numpy as np
import pandas as pd
import lightgbm as lgb
import plotly.graph_objects as go

from lightgbm import LGBMRegressor
from IPython.display import display
from catboost import CatBoostRegressor
from sklearn.metrics import mean_squared_error
from sklearn.tree import DecisionTreeRegressor
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from statsmodels.tsa.seasonal import seasonal_decompose
from sklearn.model_selection import GridSearchCV, train_test_split, TimeSeriesSplit

warnings.filterwarnings('ignore')


try:
    df = pd.read_csv('taxi.csv', index_col=[0], parse_dates=[0]) 
except:
    df = pd.read_csv('/datasets/taxi.csv', index_col=[0], parse_dates=[0])


display(df.head(), df.shape)

(26496, 1)


df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 26496 entries, 2018-03-01 00:00:00 to 2018-08-31 23:50:00
Data columns (total 1 columns):
 #   Column      Non-Null Count  Dtype
---  ------      --------------  -----
 0   num_orders  26496 non-null  int64
dtypes: int64(1)
memory usage: 414.0 KB


df.isna().sum()

num_orders    0
dtype: int64


df.sort_index(inplace=True)


# Проверим индекс на монотонность
df.index.is_monotonic

True


df = df.resample('1H').sum()


decomposed = seasonal_decompose(df)
decomposed_day = seasonal_decompose(df.resample('1D').sum())


df.head()

Best RMSE: 29.3
Best params: {'max_depth': 7}

Best RMSE: 25.9
Best params: {'max_depth': 9, 'n_estimators': 80}

Best RMSE: 31.5
Best params: {'fit_intercept': True}

Best RMSE: 25.5
Best params: {'depth': 4, 'learning_rate': 0.1}

Best RMSE: 25.2
Best params: {'max_depth': 7, 'n_estimators': 50}


df.head()


def plotly(data, title):
    fig = go.Figure(data=go.Scatter(x=data.index, y=data))
    fig.update_layout(title=title, plot_bgcolor='white')
    fig.show()


plotly(decomposed.trend, 'Trend')


plotly(decomposed.trend.rolling(24*7).mean(), 'Trend (smoothed)')


plotly(decomposed.seasonal.tail(24*7), 'Seasonality')


plotly(decomposed_day.seasonal['2018-03-01':'2018-03-15'], 'Weekly seasonality')


plotly(decomposed.seasonal['2018-03-01':'2018-03-2'], 'Daily seasonality')


def make_features(data):
    data = df.copy()
    data['month'] = df.index.month
    data['day'] = df.index.day
    data['dayofweek'] = df.index.dayofweek
    data['hour'] = df.index.hour
    
    for i in range(1, 6):
        data['lag_{}'.format(i)] = data['num_orders'].shift(i)
    
    data['rolling_mean'] = data['num_orders'].shift().rolling(1).mean()
    data.dropna(inplace=True)
    
    return data

Best RMSE: 29.3
Best params: {'max_depth': 7}

Best RMSE: 25.9
Best params: {'max_depth': 9, 'n_estimators': 80}

Best RMSE: 31.5
Best params: {'fit_intercept': True}

Best RMSE: 25.5
Best params: {'depth': 4, 'learning_rate': 0.1}

Best RMSE: 25.2
Best params: {'max_depth': 7, 'n_estimators': 50}


def make_features(data):
    data = df.copy()
    data['month'] = df.index.month
    data['day'] = df.index.day
    data['dayofweek'] = df.index.dayofweek
    data['hour'] = df.index.hour
    
    for i in range(1, 6):
        data['lag_{}'.format(i)] = data['num_orders'].shift(i)
    
    data['rolling_mean'] = data['num_orders'].shift().rolling(1).mean()
    data.dropna(inplace=True)
    
    return data


data = make_features(df)


data.head()


features = data.drop(['num_orders'], axis=1)
target = data['num_orders']


features_train, features_test, \
target_train, target_test = train_test_split(features, target, shuffle=False, test_size=0.1, random_state=12345,)


results_df = pd.DataFrame(columns=['Model', 'Training Time', 'Prediction Time', 'RMSE Train'])


tscv = TimeSeriesSplit(n_splits=5)


def fit_model(estimator, param_grid, features_train, target_train, features_test, target_test):
    model = GridSearchCV(estimator=estimator,
                         param_grid=param_grid,
                         n_jobs=-1,
                         cv=tscv,
                         scoring='neg_root_mean_squared_error'
                         )

    start_time = time.time()
    model.fit(features_train, target_train)
    training_time = time.time() - start_time

    best_rmse = abs(round(model.best_score_, 1))

    print(f'Best RMSE: {best_rmse}')
    print(f'Best params: {model.best_params_}')

    best_model = estimator.set_params(**model.best_params_)

    start_time = time.time()
    best_model.fit(features_train, target_train)
    prediction_time = time.time() - start_time

    predictions_train = best_model.predict(features_train)
    train_rmse = mean_squared_error(target_train, predictions_train, squared=False)

    return best_model, best_rmse, training_time, prediction_time, train_rmse


best_model, best_rmse, training_time, prediction_time, train_rmse_DTR = fit_model(DecisionTreeRegressor(random_state=12345), {'max_depth': range(1, 11, 2)}, features_train, target_train, features_test, target_test)

results_df.loc[0] = ['DecisionTreeRegressor', training_time, prediction_time, train_rmse_DTR]

results_df

Best RMSE: 29.3
Best params: {'max_depth': 7}


best_model, best_rmse, training_time, \
prediction_time, train_rmse_RFR = fit_model(RandomForestRegressor(random_state=12345), 
            {'n_estimators': range(50, 100, 10), 'max_depth': range(1, 11, 2)}, 
            features_train, target_train, features_test, target_test)

results_df.loc[1] = ['RandomForestRegressor', training_time, prediction_time, train_rmse_RFR]

results_df

Best RMSE: 25.9
Best params: {'max_depth': 9, 'n_estimators': 80}


best_model, best_rmse, training_time, \
prediction_time, train_rmse_LR = fit_model(LinearRegression(), 
            [{'fit_intercept': [True, False]},
             {'copy_X': [True, False]}, {'n_jobs': [1, -1]}], 
            features_train, target_train, features_test, target_test)

results_df.loc[2] = ['LinearRegression', training_time, prediction_time, train_rmse_LR]

results_df

Best RMSE: 31.5
Best params: {'fit_intercept': True}


best_model, best_rmse, training_time, \
prediction_time, train_rmse_LR = fit_model(CatBoostRegressor(random_state=12345, verbose=False), 
            {'depth': [4, 6, 8], 'learning_rate': [0.01, 0.1, 1]}, 
            features_train, target_train, features_test, target_test)

results_df.loc[3] = ['CatBoostRegressor', training_time, prediction_time, train_rmse_LR]

results_df

Best RMSE: 25.5
Best params: {'depth': 4, 'learning_rate': 0.1}


model = LGBMRegressor(random_state=12345)

# Определяем сетку гиперпараметров для настройки
parameters = {'n_estimators': [50, 100, 200],
              'max_depth': [3, 5, 7]}

# Выполняем поиск по сетке с использованием перекрестной проверки
best_model, best_rmse, training_time_LGBM, prediction_time_LGBM, train_rmse_LGBM = fit_model(model, parameters, features_train, target_train, features_test, target_test)

# Добавляем результаты текущей модели в фреймворк данных
results_df.loc[4] = ['LGBMRegressor', training_time_LGBM, prediction_time_LGBM, train_rmse_LGBM]

# Показываем результаты
results_df

Best RMSE: 25.2
Best params: {'max_depth': 7, 'n_estimators': 50}


def display_result(target, pred, rmse, model_name):
    
    # Преобразуем целевую переменную в DataFrame и сбрасываем индекс
    result = target.to_frame().reset_index()
    
    # Добавляем столбец с предсказаниями в DataFrame
    result['prediction'] = pd.Series(pred)
    
    # Устанавливаем столбец datetime в качестве индекса
    result.set_index('datetime', inplace=True)

    fig = go.Figure()
    
    # Добавляем график с реальными значениями
    fig.add_trace(go.Scatter(x=result.index, y=result[target.name], name='True'))
    
     # Добавляем график с предсказанными значениями
    fig.add_trace(go.Scatter(x=result.index, y=result['prediction'], name='Predicted'))
    
    # Устанавливаем заголовок графика и подписи осей
    fig.update_layout(title=model_name + ' (RMSE: ' + str(rmse) + ')', xaxis_title='Время (дни)', yaxis_title='Количество заказов', plot_bgcolor='white')
    
    # Отображаем график
    display(fig)


def display_result(target, pred, rmse, model_name):
    
    # Преобразуем целевую переменную в DataFrame и сбрасываем индекс
    result = target.to_frame().reset_index()
    
    # Добавляем столбец с предсказаниями в DataFrame
    result['prediction'] = pd.Series(pred)
    
    # Устанавливаем столбец datetime в качестве индекса
    result.set_index('datetime', inplace=True)

    fig = go.Figure()
    
    # Добавляем график с реальными значениями
    fig.add_trace(go.Scatter(x=result.index, y=result[target.name], name='True'))
    
     # Добавляем график с предсказанными значениями
    fig.add_trace(go.Scatter(x=result.index, y=result['prediction'], name='Predicted'))
    
    # Устанавливаем заголовок графика и подписи осей
    fig.update_layout(title=model_name + ' (RMSE: ' + str(rmse) + ')', xaxis_title='Время (дни)', yaxis_title='Количество заказов', plot_bgcolor='white')
    
    # Отображаем график
    display(fig)


for i in range(len(results_df)):
    model_name = results_df.loc[i, 'Model']
    
    if model_name == 'CatBoostRegressor':
        model = CatBoostRegressor(verbose=False)
        
        # Подгоняем модель к обучающим данным
        model.fit(features_train, target_train)
        
        # Спрогнозируем на тестовых данных
        predictions = model.predict(features_test)
        
        # Рассчитаем среднеквадратичное отклонение
        rmse = mean_squared_error(target_test, predictions, squared=False)
        
        # Выводим результаты
        display_result(target_test, predictions, rmse, model_name)

	num_orders
datetime
2018-03-01 00:00:00	9
2018-03-01 00:10:00	14
2018-03-01 00:20:00	28
2018-03-01 00:30:00	20
2018-03-01 00:40:00	32

	num_orders
datetime
2018-03-01 00:00:00	124
2018-03-01 01:00:00	85
2018-03-01 02:00:00	71
2018-03-01 03:00:00	66
2018-03-01 04:00:00	43

	num_orders	month	day	dayofweek	hour	lag_1	lag_2	lag_3	lag_4	lag_5	rolling_mean
datetime
2018-03-01 05:00:00	6	3	1	3	5	43.0	66.0	71.0	85.0	124.0	43.0
2018-03-01 06:00:00	12	3	1	3	6	6.0	43.0	66.0	71.0	85.0	6.0
2018-03-01 07:00:00	15	3	1	3	7	12.0	6.0	43.0	66.0	71.0	12.0
2018-03-01 08:00:00	34	3	1	3	8	15.0	12.0	6.0	43.0	66.0	15.0
2018-03-01 09:00:00	69	3	1	3	9	34.0	15.0	12.0	6.0	43.0	34.0

	Model	Training Time	Prediction Time	RMSE Train
0	DecisionTreeRegressor	0.184136	0.011271	22.023192
1	RandomForestRegressor	30.145162	0.783082	17.018848
3	CatBoostRegressor	63.270962	0.755724	14.432441
4	LGBMRegressor	1.886202	0.036697	17.952839
2	LinearRegression	0.116830	0.002021	30.504124

	Model	Training Time	Prediction Time	RMSE Train
0	DecisionTreeRegressor	0.184136	0.011271	22.023192
1	RandomForestRegressor	30.145162	0.783082	17.018848
3	CatBoostRegressor	63.522635	0.752388	14.432441
4	LGBMRegressor	1.886202	0.036697	17.952839
2	LinearRegression	0.116830	0.002021	30.504124

Содержание

Прогнозирование заказов такси¶

Подготовка¶

Анализ¶

Обучение¶

Тестирование¶

Вывод¶

Дополнительный материал

Чек-лист проверки¶